查看原文
其他

Stata:工具变量的秩检验-bootrantest

连享会 连享会 2022-12-31

👇 连享会 · 推文导航 | www.lianxh.cn

连享会 · 文本分析 | 爬虫 | 机器学习

作者:卫明昊 (中山大学)
邮箱:weimh7@mail2.sysu.edu.cn

编者按:本文主要摘译自下文,特此致谢!
Source:Chen Q, Fang Z, Huang X. Implementing an Improved Test of Matrix Rank in Stata[J]. arXiv preprint arXiv:2108.00511, 2021. -PDF-


目录

  • 1. 简介

    • 1.1 工具变量

    • 1.2 秩条件与阶条件

    • 1.3 工具变量的秩检验

    • 1.4 传统秩检验方法的缺陷

  • 2. 改良秩检验方法

    • 2.1 修改原假设

    • 2.2 奇异值分解

    • 2.3 构造统计量

    • 2.4 得到统计量的分布并确定临界值

  • 3. 命令介绍

  • 4. 案例演示

  • 5. 总结

  • 6. 参考文献

  • 7. 相关推文



温馨提示: 文中链接在微信中无法生效。请点击底部「阅读原文」。或直接长按/扫描如下二维码,直达原文:

1. 简介

1.1 工具变量

OLS 能成立的最重要条件是解释变量与扰动项不相关,否则 OLS 估计量将是不一致的,即无论样本容量多大,OLS 估计量都不会收敛至真实的总体参数。在实证研究中我们往往通过引入工具变量来解决这一问题。

对于一个内生变量,我们可以找一个变量 ,只要能满足以下两个条件,就能将其当做 的一个工具变量:

  • 相关性: 相关,即
  • 外生性: 不相关,即

接下来,我们推导使用工具变量法时回归模型中各参数的估计值。假设回归模型为:

其中 是内生变量,因此 OLS 估计量是不一致的。假设 的有效工具变量,同时由于其他解释变量 是外生的,故可以把自己作为自身的工具变量。

记解释向量 ,则原模型为 。记工具向量 。由于工具变量与扰动项不相关,即 ,又有 ,则 ,这被称为 “总体矩条件” 或 “正交条件”。由此可得:

以样本矩代替总体矩,即可得到工具变量估计量:

1.2 秩条件与阶条件

细心的读者可以发现,在上一部分推导中,我们没有特别说明矩阵 是否可逆。事实上如果这个矩阵不可逆,则无法得到工具变量的估计量

矩阵 可逆等价于该矩阵满秩,即 ,称此条件为秩条件。在满足秩条件的情况下,可以推导出在一定的正则条件下, 的一致估计量,且 服从渐近正态分布。

从直观上理解,秩条件 成立意味着,工具变量 与内生变量 相关。以一元回归为例,此时,,则:

因此,

相关。

显然,满足秩条件的必要条件是在 中至少包含 个变量,即不在方程中出现的工具变量个数不能少于方程中内生解释变量的个数,称此条件为阶条件。根据是否满足阶条件可分为三种情况:

  • 不可识别:工具变量个数小于内生变量个数;
  • 恰好识别:工具变量个数等于内生变量个数;
  • 过度识别:工具变量个数大于内生变量个数。

1.3 工具变量的秩检验

使用工具变量法的前提之一是秩条件成立,即 (满列秩)。其中 ( 个工具变量), (个解释变量), 可有重叠元素,且 (满足阶条件)。

对于秩条件是否成立,可进行 “不可识别检验”。其原假设及备择假设为:

在同方差假设下,可以使用 Anderson LM 统计量 (Anderson,1951),其渐进分布为 。如果允许存在异方差,则应使用 Kleibergen-Paap rk LM 统计量 (Kleibergen-Paap,2006),其渐进分布同样为 。在 Stata 中使用 ranktest 命令即可执行工具变量秩检验。

1.4 传统秩检验方法的缺陷

可以看出,上文提及的秩检验方法忽略了 $rank(E\pmb{z_ix_i^T})<k-1$ 这种情况。这使得当矩阵="" $e\pmb{z_ix_i^t}$="" 的秩小于="" $k-1$="" 时,检验结果将拒绝原假设="" (原假设的意思是该矩阵不满秩)。换言之现有秩检验方法的临界值设置得过小,导致秩检验经常犯第一类错误="" (chen="" 和="" fang,2019)。<="" p="">

2. 改良秩检验方法

考虑到现有秩检验方法的缺陷,Chen 和 Fang (2019) 提出了一种改良秩检验方法。由于这部分涉及较多数学推导,读者可能感觉晦涩难懂。因此,我们将先用较为通俗的语言简单介绍这一方法。具体如下:

  • 首先,对于一个未知矩阵 ( 代表所有 矩阵的集合),通过修改检验的原假设,将 $rank(\Pi_0)<k-1$ 的情况纳入考虑;<="" section="">
  • 然后,对 进行奇异值分解。由于 个非零奇异值,这一步将秩检验简化为检验矩阵的非零奇异值个数 (同理,也可以检验等于零的奇异值个数);
  • 接下来,对于 的估计量 ,可以构造一个统计量 。这个统计量的直观意义是 最小的 个 ( 的取值依赖于原假设) 奇异值是否足够接近零。如果 很小,就不能拒绝原假设;
  • 最后,通过 bootstrap 方法得到统计量的分布,并根据给定的置信水平确定临界值。这样才能判断 是 “大” 还是 “小”。

下面是具体的数学推导。

2.1 修改原假设

Chen 和 Fang 将原假设和备择假设修改为:

其中, () 是一个未知矩阵,在秩检验中,它代表 2SLS 方法一阶段回归中内生变量对外生变量回归的系数矩阵。 一般取

2.2 奇异值分解

进行奇异值分解 (SVD),得到:

其中 都是对称矩阵, 是一个对角矩阵,对角线上从大到小排列着 的奇异值,也就是 的特征值的平方根。

由于 都是可逆矩阵, 的秩就等于 的秩,因此只需基于 进行秩检验。最后,记 ,也就是说 真实的秩。对 (1) 式等号右边三个矩阵展开得到:

其中 代表 大的奇异值, 包括 的前 列向量,分别对应着 的非零奇异值, 则是 的后 列向量。同理, 代表着对应的向量。

此时,原假设成立,当且仅当最小的 的奇异值为 0。也就是说,原假设和备择假设等价于:

其中,,表示最小的 的奇异值平方之和。

2.3 构造统计量

对于 的估计量 ,可以构造一个统计量 。如果该统计量大于临界值,就可以拒绝原假设。在一阶段回归中, 就是 OLS 估计量。为了得到临界值,Chen 和 Fang 证明了:

其中 表示依分布收敛, 的渐进分布,即  。因此,就像我们用标准正态分布的分位数作为 检验的临界值,可以把 (3) 式中分布的分位数当做 的临界值。问题是 都是未知的。但 (3) 式同时说明可以用它们的估计量代替这些未知量。

2.4 得到统计量的分布并确定临界值

的分布的估计可以通过 bootstrap 来完成。我们直接用 的分布来代替即可。其中, 是基于 bootstrap 样本的一阶段回归的 OLS 估计量。

Chen 和 Fang 提出了两种方法来得到 的估计量。其中一种方法是统计 中 “不等于” 零的奇异值个数。为此,我们要设置一个参数 (或者 ),则 的估计量为:

在得到 的估计量 后,对 进行奇异值分解就能得到 的估计量

最后,对于给定的显著性水平 ,我们将下面这个分布的 分位数作为临界值,记为

如果统计量 ,则拒绝原假设。我们把这种方法称为分析法 (analytic approach) 。

另一种得到 的方法是基于 Kleibergen-Paap rk LM 统计量指定一个置信水平 。此时的估计值有 的概率与 真实的秩 一致。

如果 ,就拒绝原假设,否则就将 作为临界值。如果 ,则拒绝原假设。我们把这种方法称为两步法 (two-step approach)。

3. 命令介绍

基于上部分介绍的改良秩检验方法,Chen 等 (2021) 开发了 bootranktest 命令,下面对这一命令进行介绍。

bootranktest 命令可以直接通过 ssc insatll bootranktest, replace 进行安装。(注:由于该论文目前还在 The Stata Journal 的 RR 中,命令暂时还不能通过 SSC 进行安装,请读者耐心等待。)

bootranktest 命令语法如下:

bootranktest (varlist1) (varlist2) [weight] [if exp] [in range]
[, rank(#) allrank numboot(#) beta(#) kappan(#)
blocksize(#) partial(varlist3) cluster(varname) noconstant cfa]
  • varlist1:工具变量;
  • varlist2:内生变量;
  • varlist3:回归方程中的其他外生变量;
  • rank:假设矩阵的秩为 ,默认 ,注意 必须小于
  • allrank:对于 ,执行命令并报告结果;
  • numboot:bootstrap 次数,默认为 1000;
  • beta:设置两步法参数 ,默认
  • kappan:设置分析法参数 ,默认
  • blocksize:对时间序列数据进行 bootstrap 时,每次抽样数据时间段长度;
  • partial(varlist3):指定回归方程中其他非常数项外生变量;
  • cluster:指定聚类依据的变量;
  • nonconstant:一阶段回归方程中没有常数项;
  • cfa:报告分析法和两步法的具体结果。

4. 案例演示

下面使用 Stata 自带的 klein 数据集对 bootranktest 命令进行演示。klein 数据集包含 22 个时间序列观测值 (1920-1941 年)。主要变量为:

消费 consumption,私人收益 profits,美国工资总额 wagetot,政府支出 govt,间接巴士税加净出口 taxnetx,年份减去 1931 year,政府工资总额 wagegovt,股本的滞后项 capital1 和总需求 totinc

计量模型为:

我们假设 profits 的滞后项为外生变量,profitswagetot 为内生变量。工具变量是 govttaxnetxyearwagegovtcapital1totinc 的滞后项。一阶段回归方程为:

我们的目标是检验工具变量的秩条件是否成立,即 的秩是否为 2 (满列秩)。原假设为:

接下来使用 bootranktest 命令进行秩检验,得到如下结果:

在 5% 置信水平下,使用两步法得到的 值为 0.03,拒绝原假设;使用分析法得到的 值为 0.63,不能拒绝原假设。

接下来,修改原假设为:

同时将 blocksize 选项设为 2,执行 bootranktest 命令得到结果为:

在 5% 置信水平下,使用两步法得到的 值为 0.63,不能拒绝原假设;使用分析法得到的 值为 0.63,不能拒绝原假设。

作为对比,使用 ranktest 命令 (即传统的秩检验方法) 分别在以上两种原假设下进行秩检验,得到结果为:

5. 总结

传统工具变量秩检验由于忽略了 $rank(\Pi_0)<k-1$ 的情况,导致检验可能经常犯第一类错误。本文介绍的改良秩检验方法通过修改原假设将上述情况纳入考虑。并基于矩阵的奇异值构造了新的检验统计量="" $n\phi(\widehat\pi_n)$,然后通过="" bootstrap="" 方法得到其分布,以确定临界值,从而完善了现有秩检验方法。使用=""

6. 参考文献

  • Anderson T W. Estimating linear restrictions on regression coefficients for multivariate normal distributions[J]. The Annals of Mathematical Statistics, 1951: 327-351. -PDF-
  • Chen Q, Fang Z, Huang X. Implementing an Improved Test of Matrix Rank in Stata[J]. arXiv preprint arXiv:2108.00511, 2021. -PDF-
  • Chen Q, Fang Z. Improved inference on the rank of a matrix[J]. Quantitative Economics, 2019, 10(4): 1787-1824. -PDF-
  • Kleibergen F, Paap R. Generalized reduced rank tests using the singular value decomposition[J]. Journal of econometrics, 2006, 133(1): 97-126. -PDF-
  • 陈强. 高级计量经济学及 Stata 应用[M]. 高等教育出版社, 2014.

7. 相关推文

Note:产生如下推文列表的 Stata 命令为:
lianxh 工具变量, m
安装最新版 lianxh 命令:
ssc install lianxh, replace

  • 专题:Stata命令
    • Stata新命令-pdslasso:众多控制变量和工具变量如何挑选?
  • 专题:IV-GMM
    • Stata:无需工具变量的IV估计-kinkyreg-
    • Stata:当工具变量小于内生变量时,该如何估计?-mmeiv
    • Lasso一下:再多的控制变量和工具变量我也不怕-T217
    • IV在哪里?奇思妙想的工具变量
    • twostepweakiv:弱工具变量有多弱?
    • 多个(弱)工具变量如何应对-IV-mivreg?
    • IV:工具变量不满足外生性怎么办?
    • IV-工具变量法:第一阶段系数符号确定时的小样本无偏估计
    • IV:可以用内生变量的滞后项做工具变量吗?
    • Stata: 工具变量法 (IV) 也不难呀!
    • IV-估计:工具变量不外生时也可以用!
  • 专题:内生性-因果推断
    • Stata:内生变量与工具变量非线性关系处理-discretize
    • 工具变量-IV:排他性约束及经典文献解读

New! Stata 搜索神器:lianxhsongbl  GIF 动图介绍
搜: 推文、数据分享、期刊论文、重现代码 ……
👉 安装:
. ssc install lianxh
. ssc install songbl
👉  使用:
. lianxh DID 倍分法
. songbl all

🍏 关于我们

  • 连享会 ( www.lianxh.cn,推文列表) 由中山大学连玉君老师团队创办,定期分享实证分析经验。
  • 直通车: 👉【**百度一下:**连享会】即可直达连享会主页。亦可进一步添加 「知乎」,「b 站」,「面板数据」,「公开课」 等关键词细化搜索。


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存